连Siri都熬了14年,语音智能难在哪,AI硬件为什么突然火了?| 对话声智科技陈孝良
潜艇声纳和鱼雷等军事相关技术,为什么必须用声音信号? 为什么我们唱歌时,自己听到的声音和录音机里播出的不一样? 最初服务于国防和军工领域的声学技术,是如何一步步转向消费电子产品的? 以语音消息为起点的微信是如何崛起,并成为中国排名第一的即时通讯服务应用软件? Siri 早在2010年就推出了,熬了接近14年,一直不温不火,为什么却成为苹果首款AI手机发布会的核心看点? 你家里是不是也有一个落了灰的智能音箱,智能音箱为什么“不智能”?这背后有哪些技术挑战和用户体验难题? GPT-4o 可以为语音识别带来哪些新的变化和可能性? 穿戴式耳机走过了什么样的发展历程?AirPods耳机 vs. 骨传导耳机 vs. 耳夹式耳机 AI 将如何赋能耳机? 在中国,助听器的渗透率很低,这个局面会改变吗?助听器如何赢得新一代老年人用户吗?
互动福利
你有戴耳机的习惯吗,你有哪些需求是市面上的耳机没能够很好地满足的?欢迎在评论区留言,我们将随机挑选2位读者,送出声智科技的AI耳机。
李丰:今天的对话嘉宾是陈孝良博士,他创业前是中国科学院声学研究所的研究人员。2016 年,他从科学院体系出来创业,在创业的 8 年里,他经历了与声学、人工智能相关的多次浪潮。这次我请陈博士来分享他对当前 AI 与硬件结合的新创业方向的看法,以及这一次热潮对未来我们能体验到的科技消费品会产生怎样的影响。
陈孝良:非常高兴今天能够和大家聊聊AI+声学+硬件创业相关话题。声学,在一个全球范围内,都是比较小众的学科,过去主要服务于国防和军工领域,比如潜艇声纳和鱼雷等相关技术。
李丰:插入一个小知识,在军事上,声学的一个关键应用就是如何用声纳更好地探测,以及如何避免被别人用声纳探测到。
但是,这些底层算法(比如编解码)大多来自海外。我们也尝试过自主研发一些编解码算法,但因为这背后涉及到全球统一的标准,所以推广难度很大。
回顾上世纪八九十年代,日本经济快速发展,大家可能还记得那时候兴起的 Walkman、CD 唱机。
直到后来,苹果推出了iPod。消费声学硬件一直在不断发展。
再往前推,现在海外的一些声学品牌,基本上都是二战期间生产或维修收音机的企业,比如西门子、飞利浦、Bose。彼时,航母、潜艇等行业的发展,带动了声学在国防军工领域的应用。
再往前推,是 19 世纪电话的发明,这也是一个非常重要的科技进步。
李丰:这是第二次工业革命的重要一环。
陈孝良:所以说,声学是许多科技发展取得突破的关键点之一。
AI 的兴起,某种意义上也是从声音开始的。深度学习也曾率先在声音上验证它的效果。2011 年,苹果在发布会上正式推出了 Siri,这是第一个推向市场的语音助手,让大家一下子感受到了深度学习带来的算法变化。这次发布会极大地推动了声学算法的升级。
李丰:你刚讲到Siri的重要性,其实如果我们回过头来看移动互联网,2010 年以来几乎所有成功的中国移动互联网创业,比如美团、抖音、快手、微信,都是在此之前难以想象的商业模式。
这些新崛起的移动互联网巨头有一些共性。
首先是交互形态的改变。我们把信息输入从PC的物理键盘,改成在智能手机上的触摸屏上进行拖拽、滑动,也就是可以不依赖键盘。这种交互形态的改变,带来了很多商业模式,比如今日头条和抖音的大数据推荐。
其次是新传感器带来新数据。因为有了高清摄像头,跟图片和视频相关的移动应用开始流行,比如抖音快手。因为在智能手机中加入了 GPS,于是有了位置数据,随之产生了与位置相关的移动应用,包括滴滴打车、外卖服务。
微信的崛起也与之有紧密联系。
虽然现在微信大家可能打字比较多,但我们可以回忆一下,微信最初推出时是以语音为主的。那个时候,很多用户把微信当对讲机来用。
这是因为,在声音输入上,当我们告别诺基亚手机,切换到以苹果手机为代表的智能手机,麦克风从简单的收音设备变成了麦克风阵列,声音质量和信噪比都提高了。即使在嘈杂背景中,我们也能清楚地接收语音信息。
此外,当时的网络也能很好地支持语音信息的传输,并且语音还原效果也不错,用户体验也算得上特别——当时智能手机变成了全屏,但屏幕很小,没有物理键盘,虚拟键盘也不太好用,语音通讯比打字的效率高很多。
陈孝良:微信诞生时,用到的声学技术还比较简单,主要是录音和播放,不涉及复杂的 AI 技术。后来,微信加入了一些语音识别技术,AI 技术逐渐得到应用。
值得一提的是,微信语音的普及,离不开底层编解码技术的提升,即大幅降低了语音传输的流量需求,同时保证了清晰度。要知道早年的语音通话,时常会出现网络卡顿、断断续续的问题。
李丰:我们刚才讲了人类与智能设备的交互方式。键盘打字是需要后天学习的技能,没有人天生就会打字,但滑动和拖拽这样的操作是完全天然的,小朋友拿起 iPad 就能玩。而摄像头像是人眼的延伸,语音交流也是人类自然的输入输出方式。
所以在智能手机的发展中,最大的变化是从有物理键盘转向了无物理键盘。这让用户开始使用新的传感器和交互方式,比如声音、位置信息、高清摄像头,滑动和拖拽等,形成了新的交互方式。
陈孝良:其实从 Siri 诞生开始,业界就达成了一个共识,下一代的交互是基于声音的多模态交互。但是,为什么十多年过去了,声音交互仍然没有成为主流?这是因为声学相关的底层技术还没有达到非常成熟的商业化阶段。
声音涉及到很多问题,包括不同的语音特征、多语言处理、语义理解等,这些都是现在大模型正在解决的问题。然而,声学计算已经很久没有新的进展了。
举个例子,收音机的发明基于早期的电子管技术,它主要通过模拟电路来处理声音信号。后来,Walkman 和 CD 唱机等设备出现,声学技术逐渐从模拟信号处理转向数字化,但仍是基于信号处理的思路。
后来,苹果推出音乐播放器 iPod,并凭借这款产品再次崛起。我觉得,乔布斯对声学技术是有执念的。到 2009 年左右,人们已经开始尝试使用深度学习的方法,来处理语音问题。不过,那时还没有深入到语言或声学领域,只是用于处理语音。
不再依赖传统的信号处理方法——从模拟信号转向数字信号,再进一步到深度学习时代,相当于说声学计算发展到了第三个时代。
深度学习非常擅长处理传统的信号处理方法没法解决的非线性问题,尽管其在精确度上不如传统方法。在语音识别中,它很难达到 100% 的准确率,但往往并不需要100%准确。每个人的语音特征都有差异。人类在听声音时也会出错,尤其在没有听清楚时,会习惯通过联想来补全内容。好在大模型可以补足这一块。在语音识别领域,机器已经能够超越人类。
乔布斯推行的声音交互链条里,有两个关键部分:声学和 NLP(Natural Language Processing,自然语言处理)。在 2010 年左右,语音处理技术还仅限于在手机里使用。
2014 年底,亚马逊发布了 Echo 智能音箱,推动了声音交互的发展。亚马逊从 2011 年开始研发 Echo,当时为了解决语音的识别问题,引入了麦克风阵列技术。
单个麦克风只能接收到声音信号的振幅,通过多个麦克风的组合,我们还可以捕捉到相位信息。利用时间差计算相位差,我们可以更精确地确定声源的位置,进一步提升语音识别的准确性和声音信号的质量。
李丰:很多听众可能不太了解声学技术。当你讲到麦克风阵列,其实涉及到几个常见的场景和问题。
第一种是像我们现在录播客,大家离麦克风非常近,收音效果很理想,这是一种理想环境。
另外一种是开会时,大家离桌上的麦克风远近不同,坐在边上的人说话可能很清楚,但远处的人说话就听不清,有时声音断断续续。
此外,如果在室外,手机还会有很多背景噪声,比如地铁行驶、风声等。
那么,麦克风阵列在解决这些问题时,现在和未来的解决方案是什么?
陈孝良:人与设备的交互是很自然的,比如人和手机交互是一个手臂的距离,这叫“近场”交互。未来当智能机器人普及,我们不可能像用手机一样,去追着它按按钮或按触摸屏,所以,必须解决远场交互的问题。
智能音箱使用阵列技术,也是为了优先解决远场问题。在 2016 年,我们的主要任务就是去掉距离这个边界条件,保证在远距离时仍能清晰听到声音。
在军事中的声纳对抗中,这是最核心的问题。海洋环境非常复杂,不可能有理想的边界条件。但是在消费场景中,往往有成本限制。我们最初用六个麦克风阵列,后来降到三个,现在用一个也能达到效果,这表明技术也在不断进步。
会议场景则是个典型的多人场景。多人场景里有一个现象叫“鸡尾酒会效应”:人类可以在嘈杂的环境中,通过专注某些声音,来忽略其他声音。除了外界噪声,还有自噪声的问题。
这是因为人类听声音的方式有两种,一种是空气传导,另一种是骨骼传导。我们听到的自己的声音其实是这两种方式的结合。你说话时不可避免会带动骨骼的震动,而这些震动会通过骨传导传递到你的耳朵,这就是自噪声。AI硬件包括机器人就必须抑制好自噪声问题。
李丰:这真是个冷知识。
陈孝良:所以说,人类在唱歌时,自己听到的声音和回放的声音,或者说和别人听到的声音是不一样的。唱歌时很多人会跑调,是因为他们没有准确地听到自己的声音。而为了精确控制音调,歌手通常会佩戴返听耳机,不断调整唱歌节奏。这就对声学系统的延迟提出了非常高的要求。
继续说边界条件,声音在空气中和固体中传播的速度是不同的。声音在空气中的传播速度约为 345 米/秒,而声音在钢铁中的传播速度是在空气的十多倍。假如敲击暖气片,声音立即传遍整个楼层。如果声音延迟了、错位了,本来应该抵消的声音反而加剧了,就会变成噪声。
所以,延迟是一个很大的技术挑战。就像卫星定位依赖于精确的时间同步,时间一旦错了,精度就会下降。声学也有类似的要求,第二个边界条件就是延迟。
声学处理与语音识别有很大不同。在声学处理时,延迟必须控制在人类可接受的范围内。一般来说,人类发出一个单词的时间大约是 200 到 300 毫秒,而我们对声音的混响、回声感知则在 80 到 100 毫秒。但敏感的人对延迟的感知最低能够达到 30 多毫秒。因此,声音的处理必须把延迟压缩到 30 毫秒以内。
我们处理语音,会将它分为非常小的帧,每帧最长一般只有 10 毫秒——非常片段化的数据,并且必须实时预测和处理。
在智能音箱中,使用麦克风阵列时,我们主要解决了两个问题:第一个是解决远场问题,第二个是解决延迟问题。我们要确保对话服务的延迟在 1.5 秒左右,比如说用户发出命令后,音箱开始播放音乐的时间不能超过 2 秒,否则用户就会感到明显的延迟,影响体验。
李丰:所以通过声学控制的方式,是否可以加上自然语言部分提前处理,而不是等到后续?
陈孝良:不能提前加入。2016 年,我们所有的阵列里要加上十多种声学算法,它主要是为了降低第三个边界条件:噪声。
另外,端点检测也非常重要。它在整个对话交互过程中延迟是最大的,如果控制不好,延迟可能会达到一到两秒,严重影响后续的用户体验。
李丰:端点检测的概念,跟编辑播客音频时处理“气口”是一样的道理吗?
陈孝良:对。类似于你说话时,每个停顿都要被检测到。有些人说话很快,我需要加上端点检测,确保能够正确地分割。因为声学处理的分割,必须给后续的语音和语言处理留出空间,如果前面的处理不准确,后续的语音和语言处理就都会出错。
所以,在阵列处理中,其实要解决很多边界条件的问题,承担的工作非常多,这也是为什么我们要找到一个新的载体,因为手机当时的算力不足以支撑这些复杂的处理。正因为这样,我们才需要开发一个小型声学芯片。
同时,我们还需要降低成本。Echo 当时使用的是非常高端的数字信号处理器——TI DSP芯片,我们后来把所有的算法移到 ARM 架构上,从麦克风直接接入芯片,智能音箱的价格因此降到了 200 元左右。小米的智能音箱也是在那个时候成为爆款的。
李丰:智能音箱在 2016 到 2018 年特别火,对你们来说,最终实现了哪些目标?
陈孝良:我觉得实现了三个目标,也有一个目标未能实现。
第一个是,我们解决了复杂场景下的声学问题,成功让智能音箱脱离手臂距离的束缚,成为真正的远场交互设备。
第二个是,通过使用阵列和声学结构,我们构建了完整的 AI 声学处理架构,从声学处理到语音识别、语言处理,再到内容服务和 TTS(Text-to-Speech,文本转语音)合成,整个链条被打通了,为后续的智能设备迭代奠定了基础。
同时,我们提高了语音识别的精度。在复杂场景下,我们对于远场语音识别的精度基本上能够达到 85% 以上,已经足够用来理解和执行用户的指令。
第三个是,在将多个算法组合在一起后,我们成功将延迟控制在用户可以接受的范围内,保证了精度、延迟和距离三者的平衡。
李丰:这些技术当中有多少是和你们相关的?
陈孝良:包括前面提到的所有声学算法,和后面的唤醒算法。当年,由我们提供技术支持的智能音箱,在一年内,卖出了两三千万套。
但是,有一个问题我们未能完全解决,就是当时 NLP 的处理还不够成熟。很多人说智能音箱“不够智能”,那个时候确实有这个问题。在智能音箱火爆之后,从 2019 年开始,我们花了很多精力去提升 NLP 技术。
李丰:我稍微总结一下。智能手机中的声学技术发展,使得像微信这样的高清语音通话应用得以实现,特别是像对讲机模式的语音通话。但由于手机本身的硬件限制,亚马逊从 2011 年开始寻找新的载体,最终在 2014 年到 2019 年之间,促成了智能音箱的兴起。
由于更大的空间和更高的算力,智能音箱的声学性能得到了提升。然而,尽管硬件方面已经做得很好了,在那个时期,智能音箱的 NLP 能力和交互能力仍然存在一些难题。
陈孝良:2010 年到 2015 年,深度学习带来了语音技术的飞跃,像苹果的 Siri、谷歌的 Assistant、微软的 Cortana 等都逐渐崛起。不过,它们在手机上的语音识别精度不高,而且不够智能,有点鸡肋。
2015 年到 2020 年,麦克风阵列技术解决了关键的声学问题,尤其是在复杂的场景中的应用。但在当时,语言处理技术并没有显著提升。虽然数据积累了很多,但如何高效地处理和使用这些数据仍然是个难题。
结果即使到现在,智能音箱依然是全球用户触达最广泛的 AI 设备。
2020 年之后的技术和之前 10 年已经有很大不同,尤其是大模型的出现,现在我们看到了一些新的可穿戴设备的机会,苹果也开始推出 AI 手机,这是因为语言技术和 AI 的结合更加成熟了。
李丰:在 AI 和声学相关的领域,大家对 GPT-4o 反应热烈,尤其是在语音交互方面。我想从你的角度来聊一聊 GPT-4o 和其后的发展。
陈孝良:接下来非常重要的一步,是将声学与大模型结合,并落地到设备中。GPT-4o 目前可以基于手机进行语音和语言展示,对声学要求相对较低。大模型在对话中的表现,已经比智能音箱时代好了很多,用户体验达到了可用水平。
但是,语音交互依然面临挑战,特别是在自然对话中,现在的智能音箱仍然是“一对一”的交互方式:你说完一句,它听完后再给出回应。但在多人聊天的场景中,语音需要被切分开来,分辨出谁在说话,以及不同发言者之间的上下文联系。
这就依赖于声纹技术,快速识别出到底有几个人在说话,谁说了什么。否则,如果没有准确的上下文,大模型就可能误解整段对话内容。声纹技术一直没有被广泛商用,但它在解决这些问题中扮演着重要角色。
李丰:这听起来像是指纹识别一样。
陈孝良:对。特别是在复杂对话场景中,声纹起关键作用。一旦技术成熟,再结合之前的积累,复杂场景中的交互体验将会变得非常好,届时你会感觉到,它不仅能够理解单个人的发言,还能够真正理解多个不同人的对话内容。
李丰:语言大模型基本上涉及两个场景,一个是写作,一个是语音交互。到了 GPT-4o 阶段,我们会看到更多“说”和“听”这类交互形式。
AI 智能硬件在过去半年里突然火热起来,包括智能眼镜、AI耳机,以及很多可以语音交互的陪伴式设备,比如在玩具上加入语音功能。未来,也许可以通过语音来做面向老年人的陪伴与状态监测类设备。
GPT-4o 带来了输入输出形态的改变,你们在这方面做了哪些尝试?
陈孝良:我认为GPT-4o可以跟Siri类比,GPT-4o就是下一代的 Siri。Siri从2010年苹果发布以来,熬了接近14年,现在终于迎来一次重大升级。苹果的 AI 手机就是 Siri 升级到 GPT-4o 后的结果。Siri 从原来的“听不清、听不懂”,逐步进化到如今能够识别多人对话,并且能够理解这些对话,是依靠大语言模型来实现的。
其实苹果开始将 GPT-4o 和搜索功能结合,表明语音和语言大模型的结合已经相对成熟,可以商用。GPT-4o 是语音和大模型结合的关键节点,这一次的技术升级很快会被应用到各种新的智能设备中,如 PC、耳机、眼镜等。接下来,随着更多设备的加入,再加上声学的提升,整个 AI 设备市场将会迎来一次爆发式的增长。
李丰:因为声音是基于语言的自然交互,语言技术部分成熟后,交互方式的转变将越来越依赖语音。
陈孝良:是的,如果你想让大模型得到更好的应用,或者让硬件发挥其优势,这两者肯定要结合在一起。
李丰:所以你们基于这种认知,加上过去的积累,推出了一款新的 AI 耳机?
陈孝良:是的,它在很短时间内就成了爆款。我们原以为一个月能销售 5 万台、全年销售 60 万台就已经很不错了,但实际情况远超预期。我们也一直在补充产能。
李丰:消费者的购买热情超过了你们的备货量。具体来说,这款耳机在不同平台上销量如何?
陈孝良:我们目前还只在抖音上预售,一上线就爆单了,而且是抖音平台定义的爆单。目前我们耳机在抖音的自然流量中基本都排在前十,甚至是第一名。每周的加购数量也在翻倍增长,这个节奏让我回想起当年智能音箱的爆发。
李丰:在抖音上能够卖到第一名是很厉害的,因为抖音几乎是最卷的卖货市场了。你觉得这款耳机成为抖音爆款的主要原因是什么?
陈孝良:主要是因为AI。很多用户想知道 AI 到底能做什么,但他们不清楚 AI 可以怎么帮他们,我们的AI耳机加了翻译功能,让用户可以直观地体验AI耳机的能力。
比如出国交流,去一带一路沿线的小语种国家,翻译这个需求就很明确。翻译功能的市场教育成本很低,用户买了耳机后,就可以立即体验到 AI 的功能。
李丰:相当于买了个耳机,还顺便得到了一个翻译机。
陈孝良:对。第二个原因是大模型的应用。虽然大模型在很多场景下有其局限性,比如需要提示词,还存在“幻觉”问题,但是我们针对这些问题做了一些优化,帮助用户更好地使用 AI。
李丰:你们在基座模型上做了哪些适配?
陈孝良:我们的基座模型参数不大,采用了混合专家模型的架构,每个专家模型专注于特定类型的任务或数据。这个基座模型特别适合对话场景,它生成的内容非常言简意赅,通常是短对话,快速帮助用户解决问题。短对话还有另一个好处,因为AI要把翻译完的话读出来,太长了用户还得听半天,而简短的回答可以减少用户等待时间,使交流更加流畅。
所以,现在消费市场整体低迷,很难刺激用户更换设备。加入 AI 之后,情况完全不同了。AI 激发了用户的消费需求,他们愿意尝试新的技术与产品。所以,消费需求并不是不存在,而是需要一个新的触发点来激发。
李丰:接下来我们聊聊便携式耳机的发展。2019 年苹果的 AirPods 耳机经过了一些迭代后变得非常受欢迎。
陈孝良:TWS 耳机,也就是我们常说的真无线耳机。
李丰:是的,以前主流的耳机都是有线的,或者笨重的。TWS 耳机问世之后,大家开始习惯长时间佩戴无线耳机。这也是培养市场的一个过程。
陈孝良:相当于把耳机的渗透率拉上去了。
李丰:接着,又因为疫情,大家在家中待久了以后,户外活动尤其是运动场景增多,骨传导耳机变得流行。
骨传导耳机的特点和优势在于,你在户外运动时,不影响对环境的收音,比如车辆鸣笛。但它的音质相对没那么好,而且,运动过程中如果出汗,耳机还会有“呲啦呲啦”的干扰声音。
总体而言,今天的耳机市场已经相对成熟,人们习惯了长时间佩戴无线耳机,而且室内室外不同的使用场景都有相应的产品。你们的耳机,既不是完全入耳的,也不是完全外置的,而是采用了耳夹式的设计,这是怎么考虑的?
互动福利
你有戴耳机的习惯吗,你有哪些需求是市面上的耳机不能够很好地满足的?欢迎在评论区留言,我们将随机挑选2位读者,送出声智科技的AI耳机。
祝假期愉快!